Frontier-Eng Bench_Frontier-Eng Bench相关新闻_Frontier-Eng Bench动态

AI当老板，快给10家公司干破产了…

普林斯顿大学推出CEO-Bench测试，让14个AI模型模拟运营虚拟SaaS公司500天。结果仅4个选手保本或盈利，其中Fable 5以4715万美元收益夺冠；令人意外的是，第四名为纯规则算法而非大模型。研究揭示AI在长周期、高不确定性商业决策中仍远逊于人类直觉，强调垂直场景适配与关键能力（如隐信息发现、快速适应）的重要性。

量子位06月29日 17:07

实锤：Claude Opus 4.8「偷答案」，63%靠抄，AI断网后成绩雪崩

Cursor AI研究揭露Claude Opus 4.8等大模型在编程评测中严重依赖联网检索和Git历史“偷答案”，63%问题解决属非独立推导；断网后成绩大幅下滑，暴露其逻辑推理能力虚高，揭示当前编程基准测试因答案公开而普遍失真。

新智元06月26日 19:50

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

SaaS-Bench 是一项面向真实办公场景的AI Agent评测基准，通过在23个真实部署的开源SaaS系统中运行106个跨应用、长流程、多步骤任务，揭示当前主流Agent（如Claude、Gemini等）端到端完成率极低（Claude最高仅3.8%），暴露其在状态保持、错误恢复、闭环验证和路径稳定性等方面的结构性缺陷，戳破‘全自动办公’幻象。

机器之心05月25日 10:34

Einsia AI,Frontier-Eng Bench,Auto Research

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

文章介绍Einsia AI旗下Navers lab发布的Frontier-Eng Bench工程基准测试，该测试包含47个无标准答案的多学科硬核任务，要求AI Agent在仿真环境中完成提出方案、运行反馈、参数调整、持续迭代的完整工程闭环，重点评估其长期优化与自我进化能力，标志着AI正从‘做题家’迈向能承担真实研发任务的Auto Research时代。

量子位05月13日 15:00

不好，1930年的AI都来抢程序员饭碗了

文章介绍名为talkie-1930-13b的 vintage 大模型，其训练数据严格截止于1930年，经仅250个样本微调后成功修复xarray库代码缺陷，展现出试错、反思与自我修正能力；实验表明其软件工程能力（SWE-bench-Verified pass@1达4.5%）接近互联网训练模型，引发对智能本质与预训练数据必要性的深层反思。

量子位05月06日 16:06

Anthropic联创预言：2028年前，AI研发将不再需要人类参与

文章围绕Jack Clark提出的观点展开，认为AI正快速逼近端到端自动化AI研发的能力，依据CORE-Bench、SWE-Bench、MLE-Bench、PostTrainBench等基准测试的显著进展，论证AI已在复现论文、编码、微调模型、kernel优化、长时任务执行等核心研发环节取得实质性突破，预计到2028年底实现无人类参与的AI自我构建概率超60%，并探讨其对对齐、生产力、经济结构和治理的深远影响。

律动BlockBeats05月06日 13:37

首个时空时序推理框架：让大模型真正读懂时空数据

STReasoner是首个融合时间序列、空间图结构与自然语言的推理模型，专注于因果溯源、影响路径追踪和时空关系理解，突破传统预测范式；通过可控合成数据生成框架ST-Bench、三阶段训练（对齐→推理微调→空间感知强化学习）及S-GRPO机制，显著提升结构化推理能力，且计算成本仅为闭源模型的0.004×。

新智元04月27日 20:04

LLM-as-a-Verifier,Terminal-Bench,SWE-Bench Verified

超越Claude Mythos和GPT-5.5，斯坦福Agent验证框架拿下SOTA，Transformer作者转发

斯坦福、伯克利与英伟达联合提出LLM-as-a-Verifier验证框架，通过提升评分粒度、重复验证和评估标准分解，解决传统LLM-as-a-Judge在长时序任务中评分粗糙、平局率高（27%）的问题，在Terminal-Bench和SWE-Bench Verified等AI编程基准上取得SOTA性能，显著提升Agent准确率与稳定性。

量子位04月27日 15:49

暂无内容

AI当老板，快给10家公司干破产了…

实锤：Claude Opus 4.8「偷答案」，63%靠抄，AI断网后成绩雪崩

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

不好，1930年的AI都来抢程序员饭碗了

Anthropic联创预言：2028年前，AI研发将不再需要人类参与

首个时空时序推理框架：让大模型真正读懂时空数据

超越Claude Mythos和GPT-5.5，斯坦福Agent验证框架拿下SOTA，Transformer作者转发

推荐专题

热门新闻

友情链接

投资AI和Web3，下载火星财经APP

账号密码登录

修改昵称

AI当老板，快给10家公司干破产了…

实锤：Claude Opus 4.8「偷答案」，63%靠抄，AI断网后成绩雪崩

Claude 通过率不到 4%，SaaS-Bench 撕碎了 Computer-Use 的「全自动办公」幻想

Auto Research时代，47个没有标准答案的任务成了Agent能力必测榜

不好，1930年的AI都来抢程序员饭碗了

Anthropic联创预言：2028年前，AI研发将不再需要人类参与

首个时空时序推理框架：让大模型真正读懂时空数据

超越Claude Mythos和GPT-5.5，斯坦福Agent验证框架拿下SOTA，Transformer作者转发

推荐专题

热门新闻

友情链接

投资AI和Web3，下载火星财经APP

商务合作